3,550 research outputs found

    Bornes de risque pour les forĂȘts purement uniformĂ©ment alĂ©atoires

    Get PDF
    International audienceIntroduites par Leo Breiman en 2001, les forĂȘts alĂ©atoires sont une mĂ©thode statistique trĂšs performante. D'un point de vue thĂ©orique, leur analyse est difficile, du fait de la complexitĂ© de l'algorithme. Pour expliquer ces performances, des versions de forĂȘts alĂ©atoires simplifiĂ©es (et donc plus faciles Ă  analyser) ont Ă©tĂ© introduites : les forĂȘts purement alĂ©atoires. Dans cet article, nous introduisons une autre version simplifiĂ©e, que nous appelons forĂȘts purement uniformĂ©ment alĂ©atoires. Dans un contexte de rĂ©gression avec une seule variable explicative, nous montrons que les arbres alĂ©atoires ainsi que les forĂȘts alĂ©atoires atteignent la vitesse de convergence minimax. Et plus important, nous prouvons que les forĂȘts alĂ©atoires amĂ©liorent les performances des arbres alĂ©atoires, en rĂ©duisant la variance des estimateurs associĂ©s d'un facteur trois quarts

    PrĂ©vision de trajectoires de cyclones Ă  l'aide de forĂȘts alĂ©atoires avec arbres de rĂ©gression

    No full text
    International audienceNous prĂ©sentons une Ă©tude pour la prĂ©diction des trajectoires de cyclones dans l'ocĂ©an Atlantique Nord Ă  partir de donnĂ©es issues d'images satellites. On y extrait des mesures de vitesses de vent, de vorticitĂ©, d'humiditĂ© (base JRA-25)et des mesures de latitude, de longitude et de vitesse de vent instantanĂ©e des cyclones toutes les 6 heures (base IBTrACS). Les modĂšles de rĂ©fĂ©rence Ă  ce jour ne tiennent pas compte des corrĂ©lations entre les donnĂ©es et les prĂ©visions ce qui limite leur intĂ©rĂȘt pour certains utilisateurs. Nous proposons ainsi de prĂ©dire le dĂ©placement en latitude et le dĂ©placement en longitude au mĂȘme instant Ă  un horizon de 120 h toutes les 6 h Ă  l'aide de forĂȘts alĂ©atoires avec arbres de rĂ©gression. Sur le long terme, Ă  partir de 18 h, la mĂ©thode proposĂ©e donne de meilleurs rĂ©sultats que les mĂ©thodes existantes

    Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.

    Get PDF
    International audienceManagement and analysis of big data are systematically associated with a data distributed architecture in the Hadoop and now Spark frameworks. This article offers an introduction for statisticians to these technologies by comparing the performance obtained by the direct use of three reference environments: R, Python Scikit-learn, Spark MLlib on three public use cases: character recognition, recommending films, categorizing products. As main result, it appears that, if Spark is very efficient for data munging and recommendation by collaborative filtering (non-negative factorization), current implementations of conventional learning methods (logistic regression, random forests) in MLlib or SparkML do not ou poorly compete habitual use of these methods (R, Python Scikit-learn) in an integrated or undistributed architectureLa gestion et l'analyse de donnĂ©es massives sont systĂ©matiquement associĂ©es Ă  une architecture de donnĂ©es distribuĂ©es dans des environnements Hadoop et maintenant Spark. Cet article propose aux statisticiens une introduction Ă  ces technologies en comparant les performances obtenues par l'utilisation Ă©lĂ©mentaire de trois environnements de rĂ©fĂ©rence : R, Python Scikit-learn, Spark MLlib sur trois cas d'usage publics : reconnaissance de caractĂšres, recommandation de films, catĂ©gorisation de produits. Comme principal rĂ©sultat, il en ressort que si Spark est trĂšs performant pour la prĂ©paration des donnĂ©es et la recommandation par filtrage collaboratif (factorisation non nĂ©gative), les implĂ©mentations actuelles des mĂ©thodes classiques d'apprentissage (rĂ©gression logistique, forĂȘts alĂ©atoires) dans MLlib ou SparkML ne concurrencent pas ou mal une utilisation habituelle de ces mĂ©thodes (R, Python Scikit-learn) dans une architecture intĂ©grĂ©e au sens de non distribuĂ©e

    Les ForĂȘts AlĂ©atoires en Apprentissage Semi-SupervisĂ© (Co-forest) pour la segmentation des images rĂ©tiniennes

    Get PDF
    Nous proposons une approche qui permet la reconnaissance automatique des rĂ©gions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisĂ©. Une Ă©tude comparative de plusieurs techniques est proposĂ©e. Le principe repose sur une croissance de rĂ©gion en classifiant les pixels voisins Ă  partir des pixels d'intĂ©rĂȘt de l'image par apprentissage semi-supervisĂ©. Les points d'intĂ©rĂȘt sont dĂ©tectĂ©s par l'algorithme Fuzzy C-means (FCM)

    Impact du changement d'Ă©chelle sur l'Ă©tude des causes des feux de forĂȘts du sud-est de la France

    Get PDF
    International audienceThe Modifiable Areal Unit Problem (MAUP) is a well-known issue relatedto the influence of the spatial support on statistical observations. It occurs whendifferent spatial units making different spatial partitions are used and when the resultingmeasures vary according to those partitions. In this paper, we first draw a stateof the art. Considering the particular problem of (up)scaling, we propose a methodto visualize the sensitivity of the spatial statistics to the support. We test this methodon forest fires in Southern France, handling a sample from the PromethĂ©e database.From these data, we try to find the key explanatory variables. The results show thatthe correlation coefficient varies significantly, depending on scale, and that we canselect variables and scales based on this variability. Then we propose two differentways to deal with the MAUP: (i) by using geovisualization to assess and to improvethe robustness of the correlation analysis and to choose the pertinent information thatallows to minimize the sensitivity, (ii) by considering as pertinent the spatial partitionwhich is the farthest one from a random spatial distribution of the independentvariableLe support spatial des donnĂ©es a potentiellement une forte influence sur le traitement statistique des observations. Cette problĂ©matique est connue en gĂ©ographie sous le nom de Modifiable Areal Unit Problem (MAUP). Celle-ci survient lorsque diffĂ©rentes unitĂ©s surfaciques peuvent ĂȘtre utilisĂ©es et que le rĂ©sultat varie en fonction de ce choix. Dans cet article, nous prĂ©sentons un Ă©tat de l'art de ce problĂšme. ConsidĂ©rant un des aspects du MAUP, Ă  savoir l’influence du changement de niveau d’échelle, nous dĂ©veloppons une mĂ©thode de visualisation de la sensibilitĂ© des statistiques Ă  ce problĂšme. Cette mĂ©thode est testĂ©e sur l’étude des feux de forĂȘt du sud-est de la France, avec des donnĂ©es issues de la base PromĂ©thĂ©e, Ă  partir desquelles nous recherchons des variables explicatives. Nos rĂ©sultats montrent des variations des coefficients de corrĂ©lation en fonction des niveaux d’échelle et la possibilitĂ© de sĂ©lectionner les variables et les niveaux d'Ă©chelle en fonction de cette variabilitĂ©. Nous proposons deux mĂ©thodes : (i) utiliser la visualisation de ces variations afin d’amĂ©liorer la robustesse de l’analyse de corrĂ©lation en sĂ©lectionnant les informations pertinentes selon leur sensibilitĂ© au MAUP, (ii) sĂ©lectionner un niveau d’échelle pour lequel le rĂ©sultat est le plus diffĂ©rent possible d’une redistribution spatiale alĂ©atoire de la variable dĂ©pendante

    Reconnaissance de feuilles d'arbres par fusion de décisions partielles

    Get PDF
    National audienceDans le cadre du développement d'une application Smartphone destinée à la reconnaissance des espÚces d'arbres, une stratégie basée sur des sous-classifieurs a été mise en place pour reconnaßtre les feuilles à partir des caractéristiques liées à la base, au sommet et au contour. La théorie des fonctions de croyance est appliquée sur la sortie de chaque sous-classifieur afin de raffiner les résultats en diminuant l'effet de l'incertitude qui existe sur les caractéristiques des feuilles. La décision finale sur l'espÚce de feuille est prise en transformant la croyance en probabilité pignistique et en accumulant les probabilités issues de chaque sous-classifieur pour chaque espÚce. Les résultats démontrent que notre méthode de sous-classification et de décision obtient de bonnes performances

    L'effet des transferts migratoires sur la déforestation dans les pays en développement

    Get PDF
    Cet article s'intĂ©resse Ă  l'effet des transferts monĂ©taires des migrants internationaux sur l'environnement, Ă  travers l'exemple de la dĂ©forestation dans les pays en dĂ©veloppement. D'un point de vue thĂ©orique, l'effet des transferts migratoires sur la rĂ©duction des surfaces forestiĂšres apparaĂźt indĂ©terminĂ©. Nous examinons cette relation Ă  partir d'un Ă©chantillon comprenant 102 pays pour la pĂ©riode allant de 1990 Ă  2005. Le profil observĂ© pour le PIB par tĂȘte s'avĂšre contraire Ă  l'hypothĂšse de courbe environnementale de Kuznets, tandis que la part des transferts migratoires reçus dans le PIB vient rĂ©duire le taux de dĂ©forestation pour l'ensemble des pays considĂ©rĂ©

    ForĂȘts AlĂ©atoires PAC-BayĂ©siennes

    Get PDF
    Dans ce mĂ©moire de maĂźtrise, nous prĂ©sentons dans un premier temps un algorithme de l'Ă©tat de l'art appelĂ© ForĂȘts alĂ©atoires introduit par LĂ©o Breiman. Cet algorithme effectue un vote de majoritĂ© uniforme d'arbres de dĂ©cision construits en utilisant l'algorithme CART sans Ă©lagage. Par aprĂšs, nous introduisons l'algorithme que nous avons nommĂ© SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un rĂ©gularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supĂ©rieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait ĂȘtre optimale, l'algorithme SORF se rĂ©duit Ă  ĂȘtre un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forĂȘt. Les rĂ©sultasts empiriques montrent que gĂ©nĂ©ralement SORF est presqu'aussi bien performant que les forĂȘts alĂ©atoires, et que dans certains cas, il peut mĂȘme mieux performer que les forĂȘts alĂ©atoires.In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by LĂ©o Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests

    Apprentissage et forĂȘts alĂ©atoires

    Get PDF
    This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile.Cette thĂšse est consacrĂ©e aux forĂȘts alĂ©atoires, une mĂ©thode d'apprentissage non paramĂ©trique introduite par Breiman en 2001. TrĂšs rĂ©pandues dans le monde des applications, les forĂȘts alĂ©atoires possĂšdent de bonnes performances et permettent de traiter efficacement de grands volumes de donnĂ©es. Cependant, la thĂ©orie des forĂȘts ne permet pas d'expliquer Ă  ce jour l'ensemble des bonnes propriĂ©tĂ©s de l'algorithme. AprĂšs avoir dressĂ© un Ă©tat de l'art des rĂ©sultats thĂ©oriques existants, nous nous intĂ©ressons en premier lieu au lien entre les forĂȘts infinies (analysĂ©es en thĂ©orie) et les forĂȘts finies (utilisĂ©es en pratique). Nous proposons en particulier une maniĂšre de choisir le nombre d'arbres pour que les erreurs des forĂȘts finies et infinies soient proches. D'autre part, nous Ă©tudions les forĂȘts quantiles, un type d'algorithme proche des forĂȘts de Breiman. Dans ce cadre, nous dĂ©montrons l'intĂ©rĂȘt d'agrĂ©ger des arbres : mĂȘme si chaque arbre de la forĂȘt quantile est inconsistant, grĂące Ă  un sous-Ă©chantillonnage adaptĂ©, la forĂȘt quantile est consistante. Dans un deuxiĂšme temps, nous prouvons que les forĂȘts alĂ©atoires sont naturellement liĂ©es Ă  des estimateurs Ă  noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont Ă©galement Ă©tablies. Nous dĂ©montrons, dans une troisiĂšme approche, deux thĂ©orĂšmes sur la consistance des forĂȘts de Breiman Ă©laguĂ©es et complĂštement dĂ©veloppĂ©es. Dans ce dernier cas, nous soulignons, comme pour les forĂȘts quantiles, l'importance du sous-Ă©chantillonnage dans la consistance de la forĂȘt. Enfin, nous prĂ©sentons un travail indĂ©pendant portant sur l'estimation de la toxicitĂ© de certains composĂ©s chimiques

    ForĂȘts alĂ©atoires : remarques mĂ©thodologiques

    Get PDF
    International audienceOn s'intĂ©resse Ă  la mĂ©thode des forĂȘts alĂ©atoires d'un point de vue mĂ©thodologique. Introduite par Leo Breiman en 2001, elle est dĂ©sormais largement utilisĂ©e tant en classication qu'en rĂ©gression avec un succĂšs spectaculaire. On vise tout d'abord Ă  confirmer les rĂ©sultats expĂ©rimentaux, connus mais Ă©pars, quant au choix des paramĂštres de la mĂ©thode, tant pour les problĂšmes dits "standards" que pour ceux dits de "grande dimension" (pour lesquels le nombre de variables est trĂšs grand vis Ă  vis du nombre d'observations). Mais la contribution principale de cet article est d'Ă©tudier le comportement du score d'importance des variables basĂ© sur les forĂȘts alĂ©atoires et d'examiner deux problĂšmes classiques de sĂ©lection de variables. Le premier est de dĂ©gager les variables importantes Ă  des fins d'interprĂ©tation tandis que le second, plus restrictif, vise Ă  se restreindre Ă  un sous-ensemble suffisant pour la prĂ©diction. La stratĂ©gie gĂ©nĂ©rale procĂšde en deux Ă©tapes : le classement des variables basĂ© sur les scores d'importance suivi d'une procĂ©dure d'introduction ascendante sĂ©quentielle des variables
    • 

    corecore